Foxit PDF SDK
FoxitPDFSDKPython2.OCR类 参考
类 FoxitPDFSDKPython2.OCR 继承关系图:
FoxitPDFSDKPython2.Base

Public 成员函数

def OCR ()
 构造函数。 更多...
 
def GetOCRSuspectsInfo (ocred_pdf_doc)
 获取OCR可疑信息。 更多...
 
def IsEmpty ()
 检查当前对象是否为空。 更多...
 
def OCRConvertTo (format, src_pdf_path, password, saved_file_path, page_range, is_retain_flowing_text, callback)
 对PDF文档进行OCR并将其转换为指定格式的文档。 更多...
 
def OCRConvertTo (format, src_pdf_path, password, saved_file_path, page_range, is_retain_flowing_text, config, callback)
 对PDF文档进行OCR并将其转换为指定格式的文档。 更多...
 
def OCRPDFDocument (pdf_doc, is_editable, callback)
 对PDF文档的每个页面进行OCR。 更多...
 
def OCRPDFDocument (pdf_doc, is_editable, config, callback)
 对PDF文档的每个页面进行OCR。 更多...
 
def OCRPDFDocuments (settingdata_array, callback)
 对多个PDF文档的多个页面进行OCR。 更多...
 
def OCRPDFPage (pdf_page, is_editable, callback)
 对PDF页面进行OCR。 更多...
 
def OCRPDFPage (pdf_page, is_editable, config, callback)
 对PDF页面进行OCR。 更多...
 

静态 Public 属性

 e_OCRConvertFormatDOC = _fsdk.OCR_e_OCRConvertFormatDOC
 OCR转换格式:DOC。
 
 e_OCRConvertFormatDOCX = _fsdk.OCR_e_OCRConvertFormatDOCX
 OCR转换格式:DOCX。
 
 e_OCRConvertFormatHTML = _fsdk.OCR_e_OCRConvertFormatHTML
 OCR转换格式:HTML。
 
 e_OCRConvertFormatPPTX = _fsdk.OCR_e_OCRConvertFormatPPTX
 OCR转换格式:PPTX。
 
 e_OCRConvertFormatRTF = _fsdk.OCR_e_OCRConvertFormatRTF
 OCR转换格式:RTF。
 
 e_OCRConvertFormatXLS = _fsdk.OCR_e_OCRConvertFormatXLS
 OCR转换格式:XLS。
 
 e_OCRConvertFormatXLSX = _fsdk.OCR_e_OCRConvertFormatXLSX
 OCR转换格式:XLSX。
 

详细描述

此类用于对PDF页面或PDF文档进行OCR。 请确保在使用此类之前已初始化OCR引擎。

参见
OCREngine

构造及析构函数说明

◆ OCR()

def FoxitPDFSDKPython2.OCR.OCR ( )

构造函数。

带另一个OCR对象的构造函数。

参数
[in]other另一个OCR对象。

成员函数说明

◆ GetOCRSuspectsInfo()

def FoxitPDFSDKPython2.OCR.GetOCRSuspectsInfo (   ocred_pdf_doc)

获取OCR可疑信息。

参数 ocred_pdf_doc 是应该已经进行过OCR的有效PDF文档。

参数
[in]ocred_pdf_doc有效的PDF文档对象。
返回
OCRSuspectInfo 对象数组,如果其值为空,则表示文档OCR没有可疑信息。

◆ IsEmpty()

def FoxitPDFSDKPython2.OCR.IsEmpty ( )

检查当前对象是否为空。

当当前对象为空时,意味着当前对象无用。

返回
true 表示当前对象为空,而 false 表示不为空。

◆ OCRConvertTo() [1/2]

def FoxitPDFSDKPython2.OCR.OCRConvertTo (   format,
  src_pdf_path,
  password,
  saved_file_path,
  page_range,
  is_retain_flowing_text,
  callback 
)

对PDF文档进行OCR并将其转换为指定格式的文档。

参数
[in]format要转换的文档格式。请参考从 FoxitPDFSDKPython2.OCR.e_OCRConvertFormatDOCX 开始的值, 这应该是这些值中的一个。
[in]src_pdf_path源PDF文件路径。这不应该是空字符串。
[in]password源PDF文件的密码。如果PDF文件未加密,这应该是空字符串。
[in]saved_file_path要保存的文件路径。这不应该是空字符串。
[in]page_range需要转换的页面范围。如果这是空范围,则表示转换PDF文档的每一页。
[in]is_retain_flowing_texttrue 表示生成的文档将保留流动文本,文本可能被重新格式化, 分页符不能保证被保留。false 表示生成的文档将保留原始页面布局。
此参数仅对以下格式类型有用:
FoxitPDFSDKPython2.OCR.e_OCRConvertFormatRTF , FoxitPDFSDKPython2.OCR.e_OCRConvertFormatDOC , FoxitPDFSDKPython2.OCR.e_OCRConvertFormatDOCX
默认值:true
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRConvertTo() [2/2]

def FoxitPDFSDKPython2.OCR.OCRConvertTo (   format,
  src_pdf_path,
  password,
  saved_file_path,
  page_range,
  is_retain_flowing_text,
  config,
  callback 
)

对PDF文档进行OCR并将其转换为指定格式的文档。

参数
[in]format要转换的文档格式。请参考从 FoxitPDFSDKPython2.OCR.e_OCRConvertFormatDOCX 开始的值, 这应该是这些值中的一个。
[in]src_pdf_path源PDF文件路径。这不应该是空字符串。
[in]password源PDF文件的密码。如果PDF文件未加密,这应该是空字符串。
[in]saved_file_path要保存的文件路径。这不应该是空字符串。
[in]page_range需要转换的页面范围。如果这是空范围,则表示转换PDF文档的每一页。
[in]is_retain_flowing_texttrue 表示生成的文档将保留流动文本,文本可能被重新格式化, 分页符不能保证被保留。false 表示生成的文档将保留原始页面布局。
此参数仅对以下格式类型有用:
FoxitPDFSDKPython2.OCR.e_OCRConvertFormatRTF , FoxitPDFSDKPython2.OCR.e_OCRConvertFormatDOC , FoxitPDFSDKPython2.OCR.e_OCRConvertFormatDOCX
默认值:true
[in]configOCRConfig 对象。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFDocument() [1/2]

def FoxitPDFSDKPython2.OCR.OCRPDFDocument (   pdf_doc,
  is_editable,
  callback 
)

对PDF文档的每个页面进行OCR。

此函数成功后,PDF页面内容可能会改变。最好在使用这些页面之前 解析或重新解析输入PDF文档中的PDF页面。

参数
[in]pdf_doc有效的PDF文档对象。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFDocument() [2/2]

def FoxitPDFSDKPython2.OCR.OCRPDFDocument (   pdf_doc,
  is_editable,
  config,
  callback 
)

对PDF文档的每个页面进行OCR。

此函数成功后,PDF页面内容可能会改变。最好在使用这些页面之前 解析或重新解析输入PDF文档中的PDF页面。

参数
[in]pdf_doc有效的PDF文档对象。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]configOCRConfig
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFDocuments()

def FoxitPDFSDKPython2.OCR.OCRPDFDocuments (   settingdata_array,
  callback 
)

对多个PDF文档的多个页面进行OCR。

此函数可用于批量处理多个文档或页面。 用户可以通过 OCRSettingDataArray 设置文档和页面范围。 当处理大量文档或页面时,此函数的时间性能将比多次调用 FoxitPDFSDKPython2.OCR.OCRPDFDocument FoxitPDFSDKPython2.OCR.OCRPDFPage 更好。成功执行后,页面内容可能会改变, 最好在使用这些页面之前解析或重新解析PDF页面。

参数
[in]settingdata_arrayOCRSettingData 对象数组,如果 OCRSettingData 对象的 参数 page_range 为空,则表示对PDF文档的每一页进行OCR。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFPage() [1/2]

def FoxitPDFSDKPython2.OCR.OCRPDFPage (   pdf_page,
  is_editable,
  callback 
)

对PDF页面进行OCR。

此函数成功后,PDF页面内容可能会改变, 建议重新解析输入的PDF页面。

参数
[in]pdf_page有效的PDF页面对象。此PDF页面应已被解析。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFPage() [2/2]

def FoxitPDFSDKPython2.OCR.OCRPDFPage (   pdf_page,
  is_editable,
  config,
  callback 
)

对PDF页面进行OCR。

此函数成功后,PDF页面内容可能会改变, 建议重新解析输入的PDF页面。

参数
[in]pdf_page有效的PDF页面对象。此PDF页面应已被解析。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]configOCRConfig
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。